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摘 要 : [目的 /意义 ] 探 索 构 建文 献 情报 大 数据 知识 资源 体系 ,支撑 面向 多 领域 的 智慧 知识 服务 。 [ 方法 “过程 ] 基 于 AI 应 
用 需求 ,借鉴 业界 经 验 ,梳理 现 有 资源 体系 的 问题 ,从 多 层次 多 维度 扩展 资源 体系 ;构建 可 靠 数 据 处 理 流程 和 计算 
平台 ,支持 高 效 数据 采集 和 处 理 ; 研 发 智能 化 数据 治理 工具 ,实现 知识 资源 的 有 效 治理 ,确保 提供 高 质量 数据 资 
源 。[ 结果 /结论 ] 已 初步 形成 履 盖 多 类 型 多 学 科 的 科技 文献 大 数据 知识 资源 体系 ,构建 完成 高 度 自动 化 的 数据 
采集 治理 流程 ,实施 多 重 数据 质量 控制 ,积累 数 亿 高 质量 数据 ,上 且 为 多 个 知识 服务 提供 数据 支撑 。 
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一 人 设 将 成 为 打造 未 来 核心 竞争 力 的 重要 内 容 。 


前 言 
Es 直上 -大 类 ;如 : 
< 二 人工 智能 ( AI) 和 大 数据 已 经 成 为 影响 社会 各 个 2 科技 文献 大 数据 体系 设计 
信 训 的 通用 技术 ,正在 颠覆 和 改变 它 所 触及 的 每 一 个 科技 文献 大 数据 体系 主要 包括 数据 体系 .管理 平 


征 籽 。 同 样 ,它们 也 以 一 种 全 新 的 模式 推动 了 科学 研 | 台 以 及 围绕 两 者 的 标准 规范 及 技术 方法 。 基 于 需求 驱 
额 隐 突破 " ,并 为 知识 服务 提供 了 一 种 全 新 范式 ,从 而 | 动 设计 的 理念 ,笔者 首先 分 析 支 持 智慧 知识 服务 的 数 
激发 出 智慧 知识 服务 的 强烈 需求 。 据 需求 ,并 据 此 形成 设计 思路 ,完成 体系 框架 的 设计 。 
.一 智慧 知识 服务 , 即 充分 利用 AI + 大 数据 技术 搭建 | 2.1 支撑 智慧 知识 服务 的 数据 需求 分 析 
智能 文献 情报 系统 ,让 科技 情报 工作 成 为 灵活 运转 的 2.1.1 AI 应 用 需求 


以 钴 能 文献 情报 系统 为 核心 的 “数据 清洗 厂 ”“ 信 息 加 智慧 知识 服务 是 以 AI 应 用 为 特点 的 ,我 们 需要 分 

工兵"“ 知 识 生 成 三” 与 “决策 制定 厂 ” ,使 科技 情报 工 | 析 AI 应 用 对 于 大 数据 体系 的 影响 和 需求 。 

作 稻 够 快速 洞悉 变化 .凝练 问题 .聚焦 目标 、 形 成 解决 数据 科学 家 R. Monica 针对 AI 应 用 提出 了 AI 需 

方案 , 极 大 地 弥补 人 类 智能 上 的 不 足 ,增强 人 们 应 对 复 | 求 层次 论 ”,AI 应 用 的 流程 从 底层 的 数据 采集 .存储 、 

杂 问 题 与 任务 的 能 力 。 清洗 到 逐步 应 用 AL, 每 一 阶段 都 对 应 着 不 同 的 数据 和 
搭建 智能 文献 情报 系统 ,对 原 有 文献 情报 数据 体 | 处 理 需 求 ,整个 流程 难度 逐步 递 进 ( 见 图 1 ) 。 她 认为 : 


系 提出 了 新 的 需求 和 挑战 ,我 们 需要 面向 AI 应 用 需求 | 扎实 的 数据 基础 是 第 一 要 素 , 可 笔 的 数据 流程 .便捷 的 
重新 梳理 原 有 的 数据 体系 以 支持 这 种 新 技术 的 应 用 ， 数据 工具 也 是 AI 应 用 的 关键 。 
并 为 最 终 的 智慧 知识 服务 提供 知识 型 数据 支撑 。 中 国 计算 机 领域 普遍 认为 AI 应 用 的 3 个 因素 是 算法 、 
科学 院 文献 情报 中 心 ( 简称 NSLC ) 面向 未 来 发 展 提出 算 力 、 数 据 ,其 中 数据 是 核心 苑 争 力 。 想 从 AI 中 获 益 ， 
了 “建设 AIL+ 智慧 知识 服务 生态 体系 "的 目标 ,作为 智 | 需要 大 量 的 训练 数据 ” 。 

慧 知 识 服 务 生态 的 有 机 组 成 ,科技 文献 大 数据 体系 建 艾 瑞 咨询 在 近期 发 布 的 《42020 中 国 AI 基础 数据 


到 
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数据 科学 需求 层次 


A/B 测试 . 实验. 


学 习 / 优 化 简单 机 器 学 习 算法 


分 析 ， 指 标 ， 细 分 ， 


聚合 /标签 聚合 ， 特 征 ， 训 练 数据 
清洗 ， 异 常 检测 ， 准 
So 清洗 ， 异 常 检测 ， 准 备 
可 靠 的 数据 流 ， 基 础 设施 ,管道 ， 
移动 /存储 ETL， 结 构 化 和 非 结构 化 数据 存储 
汇聚 仪器 ， 日 志 ， 传 感 器， 外 部 数据 ， 用 户 生 成 内 容 


图 1 AI 需求 层次 论 叫 


服 荔 行业 发 展 报告 》 中 指出 :目前 人 工 智能 商业 化 在 算 


法 和 技术 方面 基本 达到 阶段 性 成 熟 , 想 要 更 加 落 
地 解决 行业 具体 痛 点 ,需要 大 量 经 过 标注 处 理 的 相关 
贱 风 做 算法 和 模型 的 训练 支撑 。 

加 由 此 可 见 , 高 质量 数据 (特别 是 标注 数据 ) .可靠 
的 数据 治理 流程 ,多样 化 治理 工具 是 AI 应 用 的 关键 。 
2 分 析 和 借鉴 国际 出 版 商 的 智慧 知识 服务 
QJ 大 数据 与 人 工 智能 技术 的 应 用 ,也 推动 着 科技 知 
调 朗 务 模式 的 改变 59 ,国际 出 版 社 借助 数据 优势 , 率 
先 利 用 AI 技术 探索 新 型 知识 服务 。 笔 者 调研 了 他 们 
所 剧 展 的 智慧 知识 服务 作为 我 们 进行 体系 架构 设计 时 
的 委 考 和 借鉴 。 

CElsevier ”构建 了 涵盖 数据 证据、 工具 与 智慧 服务 
的 咯 型 科研 生态 ,并 发 布 了 一 系列 数字 化 、 知 识 化 工 
具 EDigital Science 中 则 面向 科研 全 流程 ,提出 了 一 种 全 
新 的 科研 信息 服务 模式 ,形成 了 包括 研究 人 员 .科研 机 
构 .基金 项 目 与 出 版 物 这 4 个 维度 的 数据 体系 ,并 研发 
了 多 种 智能 工具 ;Taylor & Francis ,除了 自 有 数据 ,还 集 
成 了 其 他 多 种 来 源 数据 ,其 发 布 的 知识 图 谱 工具 Wiz- 
dom .aio 中 涵盖 出 版 物 ,专利 、 作 者、 机 构 、 概 念 事 实 
等 数 亿 数 据 。 

可 以 看 出 他 们 的 工作 也 是 主要 集中 在 数据 ,平台 、 
工具 这 3 个 方面 。 
2.1.3 面向 问题 的 科技 大 数据 体系 扩展 需求 分 析 

基于 上 述 调研 分 析 , 笔 者 仔细 审视 了 原 有 体系 架 
构 ,要 应 用 AI 技术 和 支持 智慧 知识 服务 ,笔者 需要 提 
供 更 为 丰富 的 高 质量 数据 (包括 标注 数据 集 ) 可靠 的 
数据 治理 流程 .多样 化 治理 工具 ,同时 要 解决 多 来 源 数 
据 融 汇 .数据 标 引 、 深 度 知识 融合 .领域 知识 图 谱 构 奸 


地 


ihul 


展 调整 。 

从 数据 层面 ,要 丰富 和 扩展 现 有 的 科技 文献 数据 
体系 ,形成 多 层次 的 面向 不 同 功能 的 数据 群 。 因 此 ,不 
但 要 包括 传统 的 科技 文献 基础 数据 群 ,还 要 建立 数据 
治理 支撑 数据 群 ,用 以 支持 智能 化 数据 加 工 并 实现 智 
能 化 数据 增值 ,同时 要 建立 科技 知识 关联 计算 数据 群 ， 
用 以 支撑 知识 计算 实现 智能 化 的 知识 生成 和 决策 制 


从 流程 层面 ,改造 原 有 的 数据 处 理 流程 ,以 数据 治 
理 为 核心 , 藤 入 AI 及 大 数据 技术 ,提升 整个 数据 流程 
的 可 靠 性 和 高 效 性 , 既 要 保障 大 数据 高 效 采 集 , 又 要 确 
保 高 效 计算 ,使 得 数据 得 到 及 时 治理 和 更 新 ,能 够 通过 
智能 化 数据 治理 获得 支撑 智慧 知识 服务 所 需 的 高 质量 

从 多 样 化 智能 工具 层面 ,引入 AI + 知识 挖掘 等 新 
技术 新 方法 ,研发 高 效能 的 智能 化 工具 ,对 科技 知识 进 
行 深 入 挖掘 和 重 构 ,扩展 实体 .关系 ,促进 知识 体系 的 
丰富 化 、 细 粒度 化 和 语义 化 。 
2.2 基本 思路 

基于 上 述 的 3 个 需求 ,笔者 形成 了 科技 大 数据 体 
系 的 3 个 建设 思路 。 
2.2.1 扩展 大 数据 资源 体系 ,多 维度 丰富 支撑 数据 群 
基于 原 有 的 大 数据 体系 ,全面 梳理 并 扩展 权威 、 可 
获取 的 数据 源 ,重新 梳理 基础 数据 将 其 扩展 为 以 下 5 
种 : 


(1) 科 研 主体 ,包括 专家 学 者 .科研 机 构 、 学 术 期 
刊 \ 科 研 团队 、 出 版 平台 、 科 技 企业 与 资助 机 构 ; 

(2) 科 研 活 动 ,包括 科研 项 目 、 学 术 会 议 、 培 训 交 
流 .科技 大 赛 .数据 分 享 新闻 资 讯 .社交 活动 与 科技 政 
策 ; 


(3) 科 研 成 果 , 包 括 论文 专利、 报告, 获奖、 专著 、 
标准 、 软 件 ,产品 与 数据 ; 

(4) 科 研 装置 ,包括 大 科学 装置 .仪器 设备 、 耗 材 
制剂 .研究 方法 等 ; 

(5) 科 学 数据 ,包括 研究 数据 等 。 

最 终 建立 一 个 覆盖 多 类 型 .多 渠道 ,多 用 户 的 包括 
文献 资讯 .专业 数据 集 、 科 研 实体 在 内 的 完整 的 科技 
大 数据 生态 体系 。 

2.2.2 ”以 数据 治理 为 核心 ,构建 高 效 数据 治理 平台 

改造 原 有 的 数据 处 理 流程 ,以 数据 治理 为 核心 , 基 
于 AI 及 大 数据 技术 建设 高 效 数据 治理 平台 ,实现 科技 
大 数据 生态 体系 中 的 数据 资源 采集 、 数 据 存 储 、 数 据 计 


等 难题 ,而 这 些 需 要 原 有 数据 体系 从 多 个 层面 进行 扩 


算 与 数据 管理 的 平台 化 运营 ,实现 多 来 源 数据 组 织 
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吴 振 新 , 钱 力 , 谢 靖 , 等 . 面向 智慧 知识 服务 的 科技 文献 大 数据 体系 建设 [可 . 图 书 情报 工作 ,2020,64(24) :63 -72. 


融 汇 ,形成 科技 文献 大 数据 体系 ,有 效 提高 各 类 资源 的 
采集 汇聚 .计算 组 织 . 融 合 与 揭示 能 力 。 
2.2.3 基于 智能 化 数据 治理 工具 ,建设 高 质量 基础 
数据 

面向 智慧 知识 服务 完成 相关 标准 规范 的 制定 和 各 
种 规范 库 的 建设 ,为 数据 清洗 加工、 组 织 提供 基础 保 
障 ;引入 人 工 智 能 及 语义 技术 ,构建 多 样 化 的 数据 治理 


工具 ,实现 多 源 蜡 构 数 据 汇 聚 、. 数 据 融 汇 ,数据 清洗 、 数 
据 规范 、 知 识 抽取 、 关 系 抽取 等 ,实现 知识 资源 的 有 效 
治理 ,确保 提供 高 质量 数据 资源 。 


2.3 ”以 数据 治理 为 核心 的 科技 文献 大 数据 体系 框架 
设计 
按照 上 面 思 路 ,笔者 完成 了 科技 文献 大 数据 体系 


框架 设计 ,如 图 2 所 示 : 


知识 大 数据 


知识 关联 网 络 区 


权威 高 质量 数据 挖 据 组 织 的 领域 知识 


图 2 科技 文献 大 数据 体系 框架 设计 


(5 新 的 体系 框架 由 3 个 部 分 组 成 :包括 底层 的 基础 
文 锋 数据 .中 间 的 数据 治理 平台 以 及 经 过 治理 后 的 应 


从 支撑 智慧 知识 服务 的 角度 ,笔者 根据 数据 的 不 
同 功能 将 数据 体系 划分 3 层 , 如 图 3 所 示 : 


智能 服务 二 本 来 源 责 献 出 版 
支撑 数据 学 者 机 构 期 刊 ”科研 主题 ”会议 ”基金 项 目 关系 ”关系 关系 
应 用 数据 期 刊 论文 ”学 位 论文 会 议论 文 ”情报 资讯 。 报告 标准 专利 项 目 
规范 库 词 表 知识 库 
质量 控制 工 机 构 信 息 机 构 人" 
机 构 ”人 名 期刊 基金 项 目 医 机 构 订购 ”机构 订 机 构 使 
数据 库 。” 购 期 刊 ” 量 数 据 
商业 出 版 资源 开放 获取 资源 ”中 科 院 体系 资源 a 
底层 数据 Clarivate Analytics PMC NSIL 
Wiley Online Library arXiv.org Sci Chi 
Taylor&FrancisOnline 人 机 构 知识 库 服务 网 络 友好 交换 资源 


3 ”科技 文献 大 数据 体系 架构 及 建设 成 效 
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2.3.1 科技 文献 基础 数据 , 即 原始 数据 层 

底层 数据 以 文献 及 网 络 数据 资源 为 主 ,是 科技 文 
献 大 数据 体系 最 基础 .最 原始 的 数据 资源 ,同时 也 是 智 
能 挖掘 和 分 析 的 基础 数据 。 

(1) 商 业 出 版 资源 :数据 类 型 主要 包括 期 刊 论文 、 
会 议论 文学 位 论文 .专利 .科技 情报 .科技 报告 .标准 、 
图 书 期刊 .工具 书 .产品 样本 ,数值 型 数据 集 等 。 

(2) 开放 获取 资源 :通过 官方 的 OA 接口 获取 的 期 
刊 论文 ,主要 包括 Cornell University Library 的 arXiv0l 
和 美国 国家 生物 技术 信息 中 心 的 PMC™"。 

(3) 中 国 科 学 院 ( 以 下 称 简 “ 中 科 院 ”) 体 系 资源 : 
主要 包括 多 年 累积 的 近 百 家 研 究 所 的 机 构 知 识 库 信 
息 ,十 三 五 规划 中 在 建 的 数 十 个 特色 数据 中 心 及 专业 
路 属 所 收集 整理 的 大 量 多 类 型 数据 信息 ,其 中 包含 广 
献 情报 体系 自 加 工 数据 ,这 部 分 自 加 工 数据 多 为 NSLC 
答 合 究 团 队 自 己 收集 加工、 融 汇 的 数据 资源 ,资源 类 
型 必 盖 较 广 ,专业 性 领域 性 比较 强 。 

辐 (4) 网 络 采集 资源 : 主要 为 NSTL 重点 领域 信息 门 
旋 革 于 不 同 领域 国内 外 相关 机 构 网 站 ,自动 搜集 、 遂 


@D(5 ) 相关 机 构 交换 资源 : 主要 包括 期 刊 论文 会议 
论 记 专利 .科技 情报 信息 ,标准 规范 等 。 
2, 如 2 ”数据 治理 基础 数据 
即 数据 治理 层 ,主要 包括 用 于 数据 质量 控制 的 知 
识 库 数 据 。 
“三 (1 ) 规范 库 。 作 为 进行 数据 质量 控制 的 传统 方 
法 6 现 范 库 依 旧 是 科技 文献 大 数据 体系 中 的 一 个 重要 
基础 数据 。 大 数据 中 心 需要 将 分 散在 各 中 心 .各 团队 、 
各 项 目 中 的 规范 库 汇 聚 起 来 ,通过 统一 管理 集中 服务 
来 进一步 推进 协作 共享 ,发 挥 价值 。 这 些 规范 数据 将 
被 应 用 在 数据 清洗 、 加 工 、 组 织 过 程 中 ,用 于 提升 数据 
质量 。 主 要 包括 :机 构 规范 库 、 人 名 库 .期刊 库 .基金 项 
目 库 。 

(2) 领 域 词 表 。 采 用 前 期 国家 科技 图 书 文献 中 心 
的 STKOS 项 目 中 以 及 NSLC 的 多 年 积累 ,汇聚 覆盖 理 
工农 医 四 大 领域 的 海量 领域 词 表 。 

(3 ) 知识 库 。 知 识 库 中 主要 包括 三 类 信息 。 

其 中 多 来 源 机 构 信息 主要 汇集 了 来 自 多 个 数据 源 


IR'" 百度 学 术 等 多 个 来 源 的 用 户 数据 ,以 及 中 科 院 
统一 认证 系统 ,配合 相关 信息 服务 系统 所 累积 的 用 户 
言 息 ,汇集 整理 用 户 基础 信息 库 。 

多 平台 日 志 信 息 包括 研究 所 用 户 在 使 用 商业 出 版 
商 平台 所 反馈 的 多 年 累积 的 日 志 信 息 ,以 及 NSLC 自 
有 各 个 服务 平台 的 实时 用 户 使 用 日 志 信息 ,以 及 对 日 
志 信 息 进 行 抽取 统计 的 后 期 数据 信息 。 

(4) 规 则 库 。 针 对 具体 资源 和 资源 特定 属性 的 质 
量 控制 需求 ,建立 特定 的 清洗 规则 组 ,用 于 支持 智能 化 
数据 治理 工具 。 

2.3.3 科技 知识 关联 计算 数据 群 

科技 知识 关联 计算 数据 群 即 知识 图 谱 层 ,是 利用 
数据 治理 层 的 基础 数据 ,将 原始 数据 经 过 一 系列 的 清 
洗 规范 . 融 汇 .抽取 等 处 理 而 形成 的 不 同类 型 的 数据 
集合 ,面向 应 用 服务 层 提 供 数据 服务 。 其 中 实体 数据 
包括 从 论文 \ 项目、 期 刊 专利 等 数据 资源 中 抽取 的 学 
者 机构 .期刊 科研 主题 会议 .基金 项 目 等 科研 实体 。 
关系 数据 包括 科研 实体 抽取 时 同时 抽取 的 多 种 关系 数 
据 , 形 成 实体 关系 库 , 在 此 基础 上 为 关系 挖掘 与 知识 计 
算 提供 数据 服务 。 


3 ”关键 问题 解决 方案 


基于 上 述 设计 方案 ,科技 大 数据 体系 还 需要 提供 
标注 数据 集 、 可 靠 的 数据 治理 流程 多样 化 治理 工具 ， 
同时 要 解决 数据 融 汇 、 标 引 、 领 域 知识 图 谱 构 建 等 难 
题 。 
3.1 ”覆盖 数据 生态 全 生命 周期 的 精细 化 数据 治理 流程 
3.1.1 覆盖 数据 生态 全 生命 周期 的 治理 流程 

根据 数据 生态 全 生命 周期 的 管理 要 求 , 笔 者 重 逆 
了 履 盖 数据 生态 全 生命 周期 的 精细 化 数据 治理 流程 ， 
形成 了 包括 数据 源 登 记 、 数 据 收割 .数据 仓库 、 集 成 融 
汇 ,知识 图 谱 、 微 服务 6 个 主要 阶段 的 标准 化 过 程 ( 见 
4) , 苔 入 了 基于 大 数据 机 器 学 习 、 知 识 挖 抉 等 技术 
开发 的 多 种 智能 化 治理 功能 模块 ,实现 数据 的 精细 化 
治理 。 

41) 数据 源 登 记 是 落实 数据 源 的 甄选 、 接 人 方式 、 
商务 合作 形式 等 基础 信息 。 

(2) 数 据 收 割 是 根据 数据 源 的 释放 方式 进行 对 应 
的 获取 处 理 。 目 前 主要 的 获取 方式 包括 :OAI 接口 访 


的 机 构 信 息 ,包含 中 国 科 学 院 、 国 内 主要 研究 机 构 及 高 
校 等 600 多 家 机 构 和 研究 所 的 基础 机 构 信 息 , 以 及 机 
构 IP 信息 ,机构 订购 商业 出 版 社 的 信息 。 

多 来 源 用 户 信息 主要 利用 WOS、iAuthor'"、 


问 ,数据库 直 连 访问 FTP 文件 服务 .存储 介质 手动 获 
取 。 每 类 数据 研发 了 匹配 的 配置 模板 ,各 数据 源 配置 
好 目标 字段 在 各 个 来 源 中 的 路 径 , 便 能 进行 新 数据 源 
的 抽取 ,大 大 提升 了 接收 效率 。 
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加 (3 ) 数 据 仓库 是 基于 Hive 数据 仓库 的 外 表 式 存 
储 习 通过 分 布 式 MapReduce 进行 ETL 并 行 计算 后 的 
缚 短 化 数据 存储 在 数据 仓库 中 。 数 据 存储 是 后 续 计算 
的 数据 基础 。 

CS(4) 集 成 融 汇 是 对 解析 后 的 结构 化 数据 进行 业务 

的 去 重 和 字符 互补 ,并 进行 必要 的 信息 转换 和 填 
办 目前 论文 的 融 汇 规则 是 以 标题 + 期 刊 + 年 份 作为 
唯 关 识别 法 ;专利 则 采用 专利 号 .申请 号 ;采集 数据 则 
采用 URL 的 md5 码 。 资 源 汇聚 模块 采用 多 级 规则 模 
式 踪 行 处 理 , 面 向 大 批量 数据 融 汇 更 能 体现 其 高 效 性 。 

.全 (5 ) 知 识 图 谱 构建 包括 数据 丰富 化 .实体 抽取 、 关 
了 3 个 子 过 程 。 数 据 丰 富 化 是 为 实体 识别 具有 更 
好 丽 精 度 , 主 要 通过 息 虫 采集 、 定 向 加 工 、 多 源 择优 对 
比 等 手段 完成 数据 丰富 化 处 理 。 实 体 抽取 主要 是 基于 
源 数据 进行 处 理 , 按 照 实体 定义 ,通过 抽取 与 分 裂 , 构 
建 实体 对 象 。 目 前 通过 抽取 得 到 的 实体 有 学 者 .机构 、 
期 刊 .科研 主题 .会 议 .基金 项 目 六 大 类 。 关 系 构建 是 
知识 图 谱 的 重要 环节 ,在 完成 文献 中 实体 分 离 后 ,保留 
实体 之 间 的 关系 ,并 通过 对 关系 数据 的 统计 分 析 完 成 
权重 计算 ,固化 实体 间 关系 的 权重 值 。 

(6) 微服 务 。 科 技 文献 大 数据 体系 通过 Restful 
API 接口 提供 数据 获取 服务 。 目 前 采用 分 布 式 技术 ， 
具有 弹性 扩展 性 . 热 注册 、 高 性 能 、 防 候 虫 等 优点 。 
3.1.2 可 个 性 化 配置 的 模块 化 流程 

笔者 将 每 个 处 理 过 程 进 行 模块 化 设计 ,可 以 面向 
多 样 化 数据 来 源 和 格式 构建 不 同 的 收割 .解析 .清洗 等 
功能 模块 ,使 得 每 种 数据 资源 的 处 理 过 程 均 可 实现 个 


大 数据 基础 支撑 平台 
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4 高 度 自动 化 的 数据 汇聚 与 治理 流程 


性 化 配置 。 

同时 对 不 同 的 资源 类 型 提供 了 不 同 的 package 标 
识 , 利 用 不 同类 去 实现 不 同 的 来 源 收割 。 每 新 增 一 种 
数据 源 ,按照 类 型 收割 的 配置 定义 规则 ,对 收割 频率 、 
收割 字段 .收割 类 型 (如 增 量 全 量 ) 收割 开始 时 间 等 
进行 配置 ,就 能 实现 新 数据 源 收割 。 
3.1.3 可视化 的 全 自动 处 理 流程 

在 实现 上 ,采用 MapReduce 和 Spark 框架 实现 分 
布 式 计算 处 理 。 每 一 个 完整 处 理 流程 都 可 配置 为 一 个 
作业 工程 ,通过 设 定 作 业 队 列 临界 值 ,将 数据 处 理 作业 
分 挫 给 多 个 服务 器 同步 处 理 ,实时 动态 加 载 。 平 台 还 
通过 可 视 化 方式 展示 处 理 流 程 中 的 各 个 步骤 ,如 "未 处 
理 “ 处 理 中 “已 处 理 " 等 。 同 时 对 某 一 来 源 数 据 可 以 
进行 全 量 和 次 增 量 的 重 跑 。 这 种 自动 化 流程 处 理 降低 
了 工作 复杂 程度 ,保证 了 一 定 程 度 的 个 性 化 ,还 提高 了 
安全 性 。 

通过 上 述 数据 处 理 建 立 起 从 数据 资源 接收 登记 、 
存储 管理 .审计 校 验 、 运 行 监控 \ 使 用 管理 ,备份 管理 的 
全 生命 周期 的 标准 管理 流程 ,并 形成 一 系列 管理 规范 ， 
以 此 来 约束 和 保障 各 类 科学 数据 在 接收 、 校 验 、 存 储 、 
使 用 、 备 份 的 正常 状态 和 使 用 规范 。 
3.2 多重 数据 质量 控制 

智 莫 知 识 服务 的 主要 特征 即 是 个 性 化 和 精准 化 ， 
这 两 项 都 需要 高 质量 数据 文 持 。 笔 者 通过 分 析 数 据 
特征 、 进 行 数据 标准 化 、 对 数据 质量 进行 监控 和 校 
验 ,实施 多 重 数 据 质 量 控制 ,切实 改善 数据 质量 和 可 
靠 性 。 
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3.2.1 统一 的 元 数据 标准 和 元 数据 模型 组 织 .计算 .服务 等 完整 数据 质量 生命 周期 进行 监控 管 


科技 文献 大 数据 体系 基于 NSTL 统一 文献 元 数据 
标准 3.0( 正 式 版 ) "制定 了 大 数据 体系 统 元 数据 标 
准 ,采用 XML 语言 和 DTD 分 别 对 标准 进行 了 形式 化 
描述 ,元 数据 共 包 含 13 个 元 素 集 : 来 源 . 单 入 文 献 . 主 
题 / 分 类 /关键 词 ,贡献 者 /机 构 .会议 、 基 金 ,操作 信息 、 


理 。 同 时 平台 提供 了 可 重用 的 清洗 流程 ,保障 数据 各 

个 阶段 的 重复 可 操作 ,以 循环 提升 数据 质量 。 

3.2.5 融入 专家 智慧 的 数据 加 工 工具 与 工作 机 制 
科技 文献 大 数据 体系 以 规范 库 和 第 三 方 资源 作为 

计算 的 基础 依据 ,对 原始 数据 进行 一 系列 自动 化 处 理 ， 


获取 管理 ,全 文 文件 .图 、 表 、 附 加 资料 和 参考 文献 元 素 
集 。 不 计 重 复元 素 和 属性 ,本 标准 共 包 含 97 个 描述 性 
元 素 53 个 辅助 性 元 素 .49 个 属性 以 及 4 个 特殊 字符 
元 素 。 通 过 元 素 和 属性 的 灵活 组 合 来 描述 多 样 化 、 多 
层次 的 资源 。 
3.2.2 规范 库 建 设 
通过 整合 汇集 来 自 不 同 机 构 和 项 目的 规范 库 数 
担 s 目 前 形成 包括 机 构 规范 库 、 人 名 库 ,期 刊 库 、 基 金 项 
共 4 种 实体 规范 库 。 在 数据 清洗 过 程 中 ,用 于 规 
范 相 关 元 数据 内 容 。 
3 多 重 数据 清洗 规则 
日 作为 规范 库 的 补充 ,还 增加 了 针对 具体 资源 和 资 
源 特 定 属性 的 质量 控制 。 每 种 类 型 资源 建立 特定 的 清 
涛 现 则 组 ,同时 还 依据 相关 的 标准 建立 了 面向 特定 元 
蒜 的 清洗 规则 ,对 来 源 国家 /地 区 ,城市 机构 名 称 、 期 
各 称 、 出 版 年 .数据 类 型 字段 .学 科 分 类 信息 ,学 者 姓 
“关键 词 等 字段 进行 规范 。 
3, 它 4 可 重复 的 清洗 过 程 
>< 科 技 文献 大 数据 体系 基于 上 述 标准 规范 和 规范 
过 标准 API 接口 对 数据 采集 .汇聚 .清洗 .加 


| 
/ 


同时 采用 融入 专家 智慧 的 数据 加 工 工具 。 建 立 了 主要 
通过 数据 管理 加 工 系统 实现 对 机 构 学者、 期 刊 .主题 
词 等 进行 深加工 ,同时 由 专业 人 员 参 与 以 确保 数据 质 
量 有 效 控制 的 工作 机 制 。 

3.3 ”面向 多 源 科技 大 数据 的 数据 融合 和 数据 标 引 
3.3.1 数据 融合 

数据 融合 是 集 机 器 自动 融合 和 人 工 治理 融合 相 结 
合 的 数据 治理 过 程 , 集 ETL 流程 化 实体 规范 化 数据 
去 重 和 丰富 化 的 数据 治理 标准 化 流程 为 一 体 , 即 是 一 
Fh 基于 规则 算法 的 数据 定制 化 融合 流程 ,也 是 一 种 群 
镶 群 策 的 数据 融合 流程 。 

每 种 实体 类 型 的 数据 都 有 各 自 的 排 重 要 素 和 排 重 
规则 ,以 期 刊 论文 为 例 ,首先 以 文献 DOI 为 第 一 排 重 要 
素 ,其 次 以 文献 标题 + 文献 作者 数目 + 文献 作者 姓名 
+ 文献 出 版 年 份 的 组 合 为 第 二 排 重要 素 ,进一步 完成 
数据 排 重 ,为 数据 融合 打 好 基础 。 然 后 ,基于 大 数据 平 
台 的 MapReduce, Spark 等 高 性 能 计算 技术 为 计算 引 
擎 ,Hive 等 数据 仓库 为 数据 源 ,Elasticsearch 等 高 速度 
的 服务 索引 为 依托 ,完成 数据 识别 与 融合 过 程 ,如 图 5 
所 示 : 
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图 5 


3.3.2 数据 标 引 

数据 集 的 分 类 与 标 引 是 科学 研究 过 程 中 的 智慧 化 
体现 ,也 是 数据 公共 服务 的 关注 点 。 对 高 价值 的 科技 
论文 .专利 期刊 .科技 报道 研究 报告 等 多 类 型 知识 资 


基于 Mapreduce 的 数据 识别 与 融合 流程 


源 ,科技 文献 大 数据 体系 实现 了 从 主题 关键 词 .学 科 分 
类 重要 度 .发表 时 效 等 多 个 维度 的 标 引 。 以 学 科 分 类 
标 引 为 例 , 科 技 文献 大 数据 体系 研究 了 多 个 来 源 学 科 
分 类 体系 ,如 NSTL .中 图 、 科 图 .ESI 以 及 出 版 商学 科 分 
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类 ,对 多 级 别 学 科 进 行 综合 分 析 与 计算 融合 ,形成 适 于 
科技 文献 大 数据 体系 的 学 科 分 类 库 。 然 后 ,将 此 学 科 
分 类 库 应 用 于 体系 内 的 各 类 资源 ,每 条 数据 资源 都 “ 烙 
印 ”自己 的 学 科 分 类 集 。 最 后 ,以 学 科 分 类 为 核心 , 提 
供 对 外 服务 和 使 用 。 

科技 文献 大 数据 体系 基于 人 工 智能 及 语义 技术 开 
发 了 多 样 化 数据 治理 工具 ,为 各 类 实体 制定 了 个 性 化 
的 标 引 规 则 ,实现 了 计算 机 自动 化 标 引 ,同时 也 开发 了 
融入 专家 智慧 的 数据 加 工 平台 ,建立 了 协调 参与 的 数 
据 质量 控制 的 工作 机 制 ,使 得 学 者 、 机 构 管理 者 ,学科 
服务 团队 数据 管理 团队 等 不 同 角色 用 户 能 够 参与 数 
据 治理 ,实现 智能 .精准 的 专题 领域 画像 ,为 精准 推送 
精准 检索 等 精准 服务 提供 高 质量 
识 库 。 
>> 
409 建 设 成 效 及 应 用 介绍 
已经 过 3 年 多 的 建设 ,目前 已 形成 了 多 领域 与 多 层 
到 科 技 文献 大 数据 知识 资源 体系 " 。 相 比 传统 的 
关 献 大 数据 体系 ,其 所 包括 的 数据 内 容 更 为 丰富 ,除了 
传 弦 文献 数据 资源 ,拥有 了 更 为 丰富 的 数据 治理 数据 
居 区 科技 知识 关联 计算 数据 ,形成 了 覆盖 数据 生态 全 
恬 缚 周期 的 精细 化 数据 治理 流程 , 髋 入 多 个 智能 化 治 


高 价值 的 数据 标 引 知 


识 数 据 。 
4.1 初步 形成 一 定 体 量 的 多 个 数据 群 
4.1.1 科技 文献 基础 数据 群 

目前 该 类 数据 已 经 覆盖 了 Web of Science .Elsevi- 
er\Willey ,Taylor .维普 、CSCD 、PMC arXiv 等 8 家 国内 
外 知名 数据 库 ; 同 时 采集 了 来 自 NIH NSF NSFC 等 国 
内 外 2 200 余 个 重要 科研 机 构 的 数据 ,数据 总 量 已 超 3 
亿 。 

同时 该 类 数据 除了 传统 的 期 刊 论文 .图 书 、 专 利 、 
学 位 论文 .科技 报告 .标准 以 及 古籍 等 类 型 的 数据 资 
源 , 还 覆盖 了 全 球 基金 项 目 、 全 球 重要 科研 机 构 以 及 学 
协会 的 全 网 络 科技 数据 、 全 球 重要 科技 智库 的 开放 科 
技 网 络 数 据 社会 经 济 信息 数据 、 政 策 法 规 信息 数据 、 
来 自 世 界 银 行 以 及 洛桑 报告 的 科技 竞争 力 的 数值 型 数 
据 收集 汇聚 了 中 科 院 重要 知识 服务 系统 的 用 户 行 为 
数据 等 。 

总 的 来 看 ,该 数据 群 年 度 跨度 大 , 鲜 活 度 高 。 该 体 
系 的 数据 最 早 回溯 到 1799 年 (专利 ) 和 1900 年 ( 文 
献 ) ,数据 的 时 间 跨 度 长 达 221 年 。 数 据 定期 更 新 频率 
为 1 天 (文献 ) 和 3 天 (专利 ) ,以 确保 数据 鲜 活 度 。 
4.1.2 数据 治理 基础 数据 

目前 已 经 累积 规范 库 和 领域 词 表 两 大 类 数据 ,如 


理 疯 雇 及 工具 ,能 够 为 智慧 知识 服务 提供 高 质量 的 知 | 表 1 所 示 : 
.之 表 1 数据 治理 基础 数据 群 的 支撑 数据 资源 
出 数据 群 分 类 明细 
人 鞠 范 库 机 构 规范 库 CSCD \iSwitch patent 等 来 源 机 构 规范 名 称 约 9 万 条 ,机 构 别 称 约 90 万 条 
一 中 国 科学 院 机 构 网 站 和 中 国 科学 院 机 构 知识 库 的 中 国 科学 院 机 构 
O 〇 中 华人 民 共 和 国教 育 部 网 站 的 中 国 高 等 院 校 (17] 
全 球 研究 标识 符 (Grid) 网 站 的 全 球 221 个 国家 近 8 万 个 机 构 
维基 百科 DBPedia 的 全 球 大 学 数据 [81 
学 者 规范 库 WOS \iAuthor IR 、 百 度 学 术 等 来 源 的 学 者 约 186 万 条 ,关联 文献 资源 420 万 篇 
中 国 科学 院 各 研究 所 官网 
中 国 科学 院 机 构 知 识 库 
中 国 科学 家 在 线 [2 
期 刊 规 范 库 全 国联 合 期 刊 目录 知识 库 和 自动 采集 的 期 刊 数据 , 约 4.5 万 篇 
基金 项 目 规范 库 澳大利亚 ,德国 ,俄罗斯 ,加 拿 大 ,美国 ,欧盟 ,日 本 ,瑞士 ,印度 英国, 中国 等 共计 11 个 国家 的 基金 项 目 , 约 500 万 个 
领域 词 表 理 344 735 个 术语 ,104 063 个 概念 
于 605 604 个 术语 ,157 570 个 概念 
241 530 个 术语 ,92 869 个 概念 
医 1 128 835 个 术语 ,260 329 个 概念 
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4.1.3 科技 知识 关联 计算 数据 群 
该 类 数据 目前 已 累积 了 包括 学 者 、 机 构 、 论 文 、 专 


利 期刊. 基金 项 目 科研 实体 超过 3 亿 个 。 同 时 还 累积 
六 类 科研 实体 的 21 类 关系 数据 34 亿 对 ,形成 了 一 个 


相对 全 面 的 实体 关系 库 , 可 以 为 关系 挖掘 与 知识 计算 
提供 智慧 数据 服务 ,能够 构建 面向 学 术 研 究 圈 的 权威 
知识 图 谱 ,并 为 智慧 知识 服务 提供 强力 知识 基础 ,如 表 
2 所 示 : 


表 2 21 类 科研 实体 关系 数据 


序号 英文 名 约束 - 关系 类 型 主体 客体 
1 publish 出 版 关系 机 构 文献 集 
2 address_is 也 址 关系 研究 者 机构/ 会议 国家 / 州 省 /城市 
3 source_is 来 源 关系 单 篇 文献 文献 集 
4 subject_is 主题 分 类 关系 文献 集 / 单 篇 文献 /机 构 / 研 究 人 员 / 项 目 主题 /分 类 /关键 词 
5 contributor 贡献 关系 文献 集 / 单 篇 文献 研究 者 
6 affiliation 所 属 关系 研究 者 机 构 
proceeding_include 会 议 收录 关系 会 议 文献 集 / 单 篇 文献 
= 8 hold_coference 举办 关系 机 构 会 议 
2> 9 fnd_by 资助 关系 项 目 机 构 
2 10 reference 引用 关系 文献 集 / 单 篇 文献 文献 集 / 单 篇 文献 
© 1 hold_collection 疏 藏 关系 文献 集 / 单 篇 文献 数据 库 
©O , attach_with 附件 关系 文献 集 / 单 篇 文献 /研究 者 /机 构 全 文 /图 / 表 / 附 加 材料 
be 13 fundapply 申请 关系 项 目 研究 者 
14 manageby 上 级 机 构 子 机 构 机 构 
CD 15 related_org 相关 关系 机 构 机 构 
CN 16 contribute_institution 贡献 机 构 关系 文献 集 / 单 篇 文献 研究 机 构 
2 17 undertake_conference 承办 关系 机 构 会 议 
~ 18 support_conference 支持 关系 机 构 会 议 
< 19 cooperate_conference 协办 关系 机 构 会 议 
© 20 guid_conference 指导 关系 机 构 会 议 
SS 21 associatemedia_conference 合作 媒体 机 构 会 议 


4 各 初 步 形成 支撑 智 丫 知识 服务 能 力 

目前 科技 文献 大 数据 体系 建设 初 见 成 效 , 已 经 为 
NSLC 门户 网 站 以 及 “ 慧 ”" 系 列 产品 等 多 个 服 
务 ” ”提供 数据 支持 ,同时 提供 多 种 形式 的 数据 服 
务 ” 


以 机 构 知识 管理 与 数据 分 析 服 务 为 例 ,科技 文 
献 大 数据 体系 为 该 服务 提供 了 科技 文献 基础 数据 群 和 
知识 关联 计算 数据 群 ,以 支撑 服务 按照 机 构 维度 进行 
自动 汇聚 科研 机 构 科 技 成 果 数 据 、 智 能 计算 与 描绘 机 
构 学 术 画 像 以 及 机 构 当前 布局 情况 及 发 展 方向 。 同 时 
还 支撑 服务 实时 提供 该 机 构 的 研究 人 员 数 据 、 科 研 基 
金 项 目 数据 发 表 期 刊 论文 数据 等 , 见 图 6。 


5 结语 


随 着 科技 文献 大 数据 体系 为 越 来 越 多 应 用 服务 提 
供 数据 支撑 ,一些 潜在 的 问题 也 逐渐 显露 出 来 ,需要 笔 


者 在 今后 的 建设 过 程 中 进行 认真 的 思考 和 解决 。 

首先 是 可 持续 发 展 的 问题 ,需要 笔者 认真 分 析 所 
涉及 的 所 有 资源 渠道 保障 ,分 析 各 类 型 资源 的 可 能 获 
得 来 源 可 能 的 保 隐 方法 和 机 制 , 寻 找 适 当 的 运作 模 
式 , 在 有 限 资金 的 投入 下 ,以 共 建 共享 ,数据 服务 等 多 
种 机 制 ,激励 多 来 源 数据 的 提供 者 的 参与 贡献 。 同 时 
面向 不 断 变化 的 应 用 需求 ,采用 大 数据 和 AI 技术 , 基 
于 原 有 数据 源 进行 深度 挖 气 发现, 实现 数据 资源 的 增 
值 ,促进 大 数据 体系 的 不 断 丰富 化 。 

其 次 需要 持续 提升 科技 文献 大 数据 体系 的 质量 控 
制 能 力 。 由 于 数据 来 源 多 ,数据 质量 不 一 、 遵 循 的 标准 
不 一 ,在 数据 清洗 和 融 汇 的 过 程 中 存在 很 多 隐藏 的 问 
题 ,影响 了 数据 融 汇 准确 性 和 数据 组 织 的 规范 性 ,也 影 
啊 了 对 于 顶层 智能 知识 服务 的 各 种 应 用 的 效果 。 后 续 
笔者 还 需要 加 强 对 规范 库 的 维度 .层次 的 丰富 化 ,结合 
新 技术 新 模型 的 应 用 ,有 效 提升 数据 的 完整 性 和 质量 。 
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Abstract: | Purpose/ significance | The paper explores the construction of literature intelligence big data know]- 


XIV 


e resource system, which supports multi-domain intelligent knowledge service. | Method/process | Based on the 


na 


application requirements, drawing on the industry experience, combing the problems of existing resource system, 

paper expanded the resource system from multi-level and multi-dimensional, built a reliable data processing 
rpcess and computing platform to support efficient data collection and processing, and developed intelligent data gov- 
ernance tools to achieve effective governance of knowledge resources and ensure the provision of high-quality data re- 
sources. | Result/conclusion | It has initially formed a knowledge resource system covering multiple types and disci- 
plines of sci-tech literature, constructed and completed a highly automated data collection and governance process, 
implemented multiple data quality control, and accumulated hundreds of millions of high-quality data. At present, it 
has provided data support for multiple knowledge services. 
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